7.4 MambaFormer - 희소 패리티(Sparse Parity) 학습을 위한 결합 구조
1. 서론: 포스트 트랜스포머 시대와 하이브리드 아키텍처의 필연성
인공지능 연구의 역사는 모델 아키텍처의 효율성과 표현력 사이의 끊임없는 줄다리기 과정이었다. 트랜스포머(Transformer)의 등장은 자연어 처리(NLP) 분야에 혁명적인 변화를 가져왔지만, 입력 시퀀스 길이에 대해 2차적(Quadratic)으로 증가하는 계산 복잡도와 메모리 요구량은 여전히 극복해야 할 근본적인 한계로 남아 있다.1 이러한 배경에서 등장한 맘바(Mamba)와 같은 선택적 상태 공간 모델(Selective State Space Model, SSM)은 선형적(Linear)인 계산 복잡도를 무기로 긴 시퀀스 처리에서 탁월한 효율성을 입증하며 ‘포스트 트랜스포머’ 시대의 유력한 후보로 부상했다.2
그러나 트랜스포머와 SSM은 각기 다른 영역에서 치명적인 약점을 노출한다. 트랜스포머는 ‘어텐션(Attention)’ 메커니즘을 통해 전역적인 문맥 정보를 포착하고 ‘복사(Copying)’ 및 ‘검색(Retrieval)’ 태스크에서 압도적인 성능을 보이지만, 상태(State)를 순차적으로 추적해야 하는 논리 연산에는 취약하다.4 반면, 맘바는 순환 신경망(RNN)과 유사한 귀납적 편향(Inductive Bias)을 통해 순차적 상태 추적에는 강점을 보이지만, 과거의 특정 정보를 원본 그대로 인출해야 하는 연관 검색(Associative Recall) 과제에서는 정보 압축 손실로 인해 성능이 저하된다.2
본 장에서 심도 있게 다룰 MambaFormer는 이러한 이분법적 한계를 극복하기 위해 제안된 하이브리드 아키텍처의 정점이다. 특히 Park et al. (2024)의 연구에서 제안된 MambaFormer는 단순한 레이어의 물리적 결합을 넘어, **희소 패리티(Sparse Parity)**와 같은 고난도 논리 추론 과제를 해결하기 위한 최적의 구조적 설계를 제시한다.7 희소 패리티 문제는 트랜스포머가 구조적으로 학습하기 극도로 어려워하는 대표적인 과제로, 입력의 미세한 변화가 출력 전체를 뒤집는 고감도(High-sensitivity) 특성을 가진다. MambaFormer는 맘바의 상태 추적 능력과 트랜스포머의 문맥 검색 능력을 결합하여, 단일 아키텍처로는 도달할 수 없었던 ’일반화된 인컨텍스트 학습(In-Context Learning, ICL)’의 새로운 가능성을 열어젖혔다.7
본 절에서는 MambaFormer의 설계 철학, 희소 패리티 문제의 이론적 난점, 그리고 이를 해결하기 위한 구체적인 결합 메커니즘을 분석한다. 또한, 위치 인코딩(Positional Encoding)의 제거와 레이어 배치 전략이 모델의 학습 역학에 미치는 영향을 실험적 증거와 함께 논증한다.
2. 희소 패리티(Sparse Parity) 문제의 정의와 이론적 난점
MambaFormer의 진가를 이해하기 위해서는 먼저 트랜스포머의 아킬레스건이라 불리는 희소 패리티(Sparse Parity) 문제의 본질을 수학적, 구조적으로 파악해야 한다. 이는 단순한 벤치마크 테스트를 넘어, 시퀀스 모델이 정보를 처리하고 저장하는 방식의 근본적인 차이를 드러내는 리트머스 시험지이다.
2.1 희소 패리티 태스크의 수학적 정의 및 특성
희소 패리티 태스크는 긴 입력 시퀀스 내에서 산재된 특정 정보들의 상태를 추적하여 최종적인 논리값을 도출하는 문제이다. 수학적으로 이는 n차원의 입력 벡터 x \in \{-1, 1\}^n가 주어졌을 때, 고정된 인덱스 집합 I \subset \{1,..., n\} (|I|=k)에 대해 목표 함수 y = \prod_{j \in I} x_j를 학습하는 것으로 정의된다.10 여기서 k는 희소성(Sparsity)을 나타내며, 전체 시퀀스 길이 n에 비해 k는 매우 작은 값을 가진다.
이 문제의 핵심적인 난이도는 다음 두 가지 특성에서 기인한다:
- 고감도(High-sensitivity): 패리티 함수는 입력 비트 중 단 하나만 반전되어도 출력값 전체가 뒤바뀐다 (1 \to -1 또는 -1 \to 1). 이는 모델이 모든 관련 입력의 상태를 정확하게 보존해야 하며, 근사(Approximation)나 평활화(Smoothing)가 불가능함을 의미한다.11
- 장기 의존성(Long-range Dependency): 관련된 k개의 비트는 시퀀스 전체에 걸쳐 무작위로 분포할 수 있다. 모델은 노이즈(관련 없는 비트)를 무시하고, 멀리 떨어진 신호들 간의 XOR 관계를 정확히 연산해야 한다.
2.2 트랜스포머의 구조적 한계: 평활화 편향과 낮은 감도
트랜스포머는 어텐션 메커니즘을 통해 시퀀스 내 모든 토큰 간의 관계를 O(1) 경로로 연결하지만, 희소 패리티 문제에서는 놀라울 정도로 무력한 모습을 보인다. 연구 결과에 따르면, 트랜스포머는 희소 패리티 학습에서 임의 추측(Random Guessing) 수준의 성능을 벗어나지 못하거나, 학습에 성공하더라도 막대한 데이터와 시간이 소요된다.3
이러한 실패의 원인은 트랜스포머의 **귀납적 편향(Inductive Bias)**에 있다:
- 평활화 편향(Smoothing Bias): 어텐션 메커니즘은 본질적으로 쿼리(Query)와 키(Key)의 유사도를 기반으로 정보를 집계(Aggregation)한다. 이는 입력의 국소적인 변동을 평균화하여 잡음을 제거하는 데는 효과적이지만, 입력의 미세한 변화가 출력의 급격한 변화를 유발해야 하는 고감도 함수 학습에는 방해가 된다.13 트랜스포머는 ‘유사한 것끼리 뭉치는’ 경향이 있어, 논리적 반전(Inversion)과 같은 이산적 연산을 표현하는 데 비효율적이다.
- 낮은 차수 편향(Low-degree Bias): 트랜스포머는 경사 하강법(SGD)을 통해 학습할 때, 낮은 차수의 다항식이나 간단한 함수로 수렴하려는 경향이 있다. k-희소 패리티는 k차 상호작용을 모델링해야 하므로, 트랜스포머의 최적화 경로는 이 해답을 찾는 데 어려움을 겪는다.13
- 위치 정보의 비효율적 활용: 절대적 위치 인코딩(Positional Encoding)을 사용하는 트랜스포머는 위치 간의 ’순서’보다는 ’내용’에 집중한다. 패리티 문제는 내용(\pm 1)뿐만 아니라 순차적인 연산의 흐름이 중요한데, 트랜스포머는 이를 병렬적으로 처리하려다 보니 필요한 연산 깊이가 기하급수적으로 늘어난다.15
2.3 맘바(SSM)의 구조적 우위: 상태 공간과 선형 점화식
반면, 맘바와 같은 상태 공간 모델은 희소 패리티 문제에서 탁월한 성능을 보인다. 이는 맘바가 본질적으로 **순환 신경망(RNN)**의 특성을 가지며, 선형 점화식(Linear Recurrence)을 통해 상태를 갱신하기 때문이다.16
맘바의 상태 갱신 식은 h_t = A h_{t-1} + B x_t 형태로 표현된다. 패리티 연산은 ’현재까지의 누적 합(mod 2)’이라는 **상태(State)**만 유지하면 해결될 수 있는 문제이다. 즉, 새로운 입력이 들어올 때마다 내부 상태를 반전시킬지 유지할지만 결정하면 되므로, 맘바는 매우 적은 파라미터와 선형적인 시간 복잡도만으로도 이 문제를 완벽하게 모델링할 수 있다.3 맘바는 입력 시퀀스를 따라 상태를 ‘흘려보내며(Streaming)’ 정보를 처리하므로, 패리티와 같은 순차적 논리 연산이 자연스럽게 구현된다.
하지만 맘바의 이러한 ‘상태 압축’ 능력은 양날의 검이다. 긴 시퀀스의 모든 정보를 고정된 크기의 은닉 상태(Hidden State)에 압축해야 하므로, 과거의 특정 토큰을 원본 그대로 복원해야 하는 **검색(Retrieval)**이나 복사(Copying) 태스크에서는 정보 손실이 발생하여 트랜스포머에 비해 현저히 낮은 성능을 보인다.2
결국, 희소 패리티를 잘하는 맘바와 검색을 잘하는 트랜스포머의 장점을 결합하는 것이 MambaFormer의 핵심 목표가 된다.
3. MambaFormer의 아키텍처: 하이브리드 설계의 정수
MambaFormer는 단순히 맘바와 트랜스포머 레이어를 섞는 것을 넘어, 각 모듈의 기능적 역할을 재정의하고 최적의 배치를 찾아낸 결과물이다. Park et al. (2024)은 다양한 하이브리드 구성 실험을 통해 “Mamba-First” 전략과 “Positional Encoding-Free” 설계가 희소 패리티와 검색 능력을 동시에 극대화하는 열쇠임을 밝혀냈다.3
3.1 전체 아키텍처 개요 및 구성 요소
MambaFormer는 기본적으로 트랜스포머의 골격을 유지하되, 내부 블록 구성을 맘바와 어텐션의 하이브리드 형태로 재설계했다.
- 기본 단위(Building Block): 맘바 블록(Mamba block)과 멀티 헤드 어텐션(Multi-Head Attention, MHA) 블록이 인터리빙(Interleaving)되는 구조를 가진다. 연구에서는 2개의 블록(Mamba + MHA)을 하나의 ‘레이어’ 단위로 정의하기도 한다.7
- 레이어 결합 방식: 인터 레이어(Inter-layer) 하이브리드 방식을 채택했다. 이는 어텐션 레이어와 SSM 레이어를 번갈아 배치하여, 각 레이어의 출력이 다음 레이어의 입력으로 들어가는 직렬 구조이다.19
- 핵심 차별점: 기존의 ‘Standard Hybrid’ 모델과 달리, MambaFormer는 첫 번째 레이어를 반드시 맘바 블록으로 시작하며, 별도의 위치 인코딩(Positional Encoding)을 전혀 사용하지 않는다.3
이러한 설계는 다음과 같은 비교표로 정리할 수 있다.
| 모델 아키텍처 | 초기 레이어 (Initial Layer) | 위치 인코딩 (Positional Encoding) | 레이어 구성 (Interleaving) | 희소 패리티 성능 |
|---|---|---|---|---|
| Transformer | Attention | 필수 (Required) | Attention Only | 실패 (Random Guess) |
| Mamba | Mamba | 불필요 (Not used) | Mamba Only | 성공 (High Accuracy) |
| Standard Hybrid | Attention (보통) | 필수 (Required) | Attention \leftrightarrow Mamba | 실패 또는 저조 |
| MambaFormer | Mamba | 제거 (Removed) | Mamba \to Attention | 성공 (Best-of-both) |
3.2 초기 레이어로서의 맘바(Mamba as an Initial Layer)
MambaFormer 설계의 가장 중요한 통찰은 **“첫 단추를 맘바가 꿰어야 한다”**는 것이다. Park et al. (2024)의 절제 실험(Ablation Study)에 따르면, 하이브리드 모델의 첫 번째 레이어가 어텐션 블록일 경우 패리티 학습 성능이 트랜스포머 수준으로 떨어지는 반면, 맘바 블록일 경우 순수 맘바 모델과 대등한 성능을 보였다.7
왜 초기 레이어가 중요한가?
- 순차적 특징 추출(Sequential Feature Extraction): 입력 시퀀스가 처음 모델에 들어올 때, 맘바 블록은 토큰 간의 국소적인 상호작용과 순서 정보를 즉각적으로 처리하여 ’상태 정보’가 포함된 특징 맵(Feature Map)을 생성한다. 패리티 문제와 같이 순서와 상태가 중요한 정보는 초기에 포착되지 않으면 이후의 어텐션 레이어에서 복구하기 어렵다.9
- 위치 정보의 내재화: 맘바는 순환적 처리 방식을 통해 토큰의 절대적 위치가 아닌 ’상대적 순서’와 ’누적된 문맥’을 은닉 상태에 인코딩한다. 초기 레이어에서 이러한 위치 정보를 확립해 놓으면, 이후의 어텐션 레이어는 별도의 위치 인코딩 없이도 이 정보를 활용하여 전역적인 연산을 수행할 수 있다.3
3.3 위치 인코딩의 제거 (Eliminating Positional Encodings)
트랜스포머에서 위치 인코딩은 필수불가결한 요소이다. 병렬 처리의 특성상 위치 정보가 없으면 단어의 순서를 구별할 수 없기 때문이다. 그러나 MambaFormer는 과감하게 위치 인코딩을 제거했다. 이는 단순히 파라미터를 줄이는 것을 넘어, 모델의 학습 역학을 근본적으로 변화시킨다.
- 암시적 위치 인코딩(Implicit Positional Encoding): 맘바 레이어는 입력 x_t를 처리할 때 이전 상태 h_{t-1}을 참조하므로, 출력값에는 자연스럽게 시간적 순서 정보가 녹아들게 된다. 연구진은 맘바 블록이 생성하는 이러한 암시적 위치 정보가 명시적인 위치 인코딩(Sinusoidal, Learned 등)보다 패리티와 같은 논리 연산 학습에 훨씬 효과적임을 입증했다.7
- 일반화 능력 향상: 명시적 위치 인코딩은 훈련 데이터의 길이에 과적합(Overfitting)되기 쉽다. 반면, 맘바를 통한 동적 위치 정보 생성은 학습하지 않은 길이의 시퀀스나 새로운 패턴의 태스크(Length Generalization)에 대해서도 더 유연하게 대응할 수 있게 한다.12 이는 MambaFormer가 ICL 태스크에서 보여주는 강력한 성능의 원동력이 된다.
3.4 인터리빙(Interleaving)과 정보 간섭의 해결
하이브리드 아키텍처의 난제 중 하나는 서로 다른 성격의 레이어를 섞을 때 발생하는 **정보 간섭(Information Interference)**이다. 특히 시계열 예측과 같은 분야에서는 맘바와 트랜스포머를 단순히 적층했을 때 성능이 오히려 하락하는 현상이 보고되기도 했다.2
MambaFormer는 이러한 문제를 역할 분담을 통해 해결한다:
- 맘바 블록: 로컬 패턴(Short-range)과 순차적 상태(Sequential State)를 압축하고, 고주파수 정보(패리티 등)를 처리한다.
- 어텐션 블록: 맘바가 생성한 상태 정보를 바탕으로 글로벌 문맥(Long-range)을 참조하고, 필요한 정보를 정밀하게 검색(Retrieval)한다.
특히 MambaFormer는 맘바가 먼저 상태를 정리한 후 어텐션이 이를 참조하는 구조(\text{Mamba} \to \text{Attention})를 취함으로써, 어텐션이 처리해야 할 탐색 공간을 효율적으로 구조화한다. 이는 “맘바는 압축하고, 트랜스포머는 회상한다“는 하이브리드 모델의 대원칙을 구현한 것이다.22
4. 학습 메커니즘 분석: 상호 보완성의 원리
MambaFormer가 희소 패리티와 검색이라는 상반된 태스크를 동시에 해결하는 메커니즘은 인지 과학적 관점에서도 흥미로운 시사점을 제공한다. 이는 인간이 정보를 처리할 때 ’직관적인 흐름(Sequential Flow)’과 ’의도적인 회상(Attentional Recall)’을 병행하는 것과 유사하다.
4.1 상태 공간을 통한 논리 연산의 간소화
희소 패리티 문제는 본질적으로 유한 오토마타(Finite Automata)가 해결하는 방식과 유사하다. MambaFormer의 맘바 레이어는 학습을 통해 입력 비트에 따라 상태 공간 내에서 궤적(Trajectory)을 형성한다.
- 입력이 1일 때 상태 벡터를 특정 방향으로 회전시키거나 반전시키는 선형 변환 행렬 A를 학습한다.
- 이 과정은 어텐션과 달리 모든 과거 데이터를 메모리에 올려놓고 비교할 필요가 없다. 오직 현재의 상태 벡터만 갱신하면 되므로, 패리티 연산의 복잡도가 시퀀스 길이에 무관하게 O(1)(inference time step)로 유지된다.17
- 초기 맘바 레이어가 이러한 ’패리티 상태’를 미리 계산하여 특징 벡터에 심어주면, 후속 어텐션 레이어는 복잡한 연산 없이 이 값을 ’읽기(Read-out)’만 하면 된다. 이것이 MambaFormer가 패리티 문제에서 트랜스포머를 압도하는 이유이다.7
4.2 어텐션을 통한 메모리 병목 해소
순수 맘바 모델은 ‘Copying’ 태스크에서 치명적이다. 예를 들어, “입력 시퀀스의 첫 번째 토큰을 다시 출력하라“는 간단한 명령조차 시퀀스가 길어지면 상태 벡터의 용량 한계로 인해 정보가 소실되어 실패한다.5
- MambaFormer의 어텐션 레이어는 **KV 캐시(Key-Value Cache)**를 통해 모든 과거 토큰에 대한 직접적인 접근 경로를 제공한다.
- 맘바 레이어가 문맥을 압축하면서 정보의 ’해상도’를 잃어버리더라도, 어텐션 레이어가 원본 토큰 정보를 다시 참조(Look-back)하여 복원할 수 있다.
- 즉, 맘바는 “무엇을(What)” 찾아야 할지 문맥을 파악하고, 어텐션은 “어디에(Where)” 그 정보가 있는지 정확한 위치를 찾아낸다.16 이 상호 보완적 메커니즘 덕분에 MambaFormer는 MQAR(Multi-Query Associative Recall)과 같은 고난도 검색 태스크에서도 트랜스포머와 대등한 성능을 발휘한다.3
5. 실증적 성능 평가 및 벤치마크 분석
Park et al. (2024)의 연구 “Can Mamba Learn How to Learn?“에서는 MambaFormer의 우수성을 입증하기 위해 광범위한 합성 태스크(Synthetic Tasks)와 인컨텍스트 학습(ICL) 벤치마크를 수행했다. 이 결과는 MambaFormer가 이론적 가설대로 작동함을 명확히 보여준다.
5.1 희소 패리티(Sparse Parity) 학습 성능
가장 주목할 만한 결과는 희소 패리티 태스크에서의 성능 격차이다.
- 실험 설정: 임베딩 차원 256~768, 12~24 레이어, 최대 500,000 이터레이션 학습.3
- Transformer: 학습이 진행되어도 정확도가 50% 부근(Random Guessing)에서 머무른다. 모델의 크기를 키우거나 학습 시간을 늘려도 개선되지 않는다. 이는 트랜스포머가 해당 함수를 근사하는 데 실패했음을 의미한다.3
- Mamba: 매우 적은 이터레이션 내에 100% 정확도에 도달하며 빠르게 수렴한다.3
- MambaFormer: 순수 맘바 모델과 거의 유사한 수렴 속도와 정확도를 보여준다. 이는 초기 맘바 레이어가 패리티 연산의 부하를 완벽하게 감당하고 있음을 시사한다.9
- Standard Hybrid: 초기 레이어가 어텐션인 경우, 트랜스포머와 마찬가지로 학습에 실패하거나 매우 느리게 수렴하는 경향을 보였다. 이는 아키텍처의 순서가 성능에 결정적임을 증명한다.7
5.2 검색 및 연상 기억(Associative Recall) 성능
맘바의 약점으로 지적되는 검색 능력 평가에서도 MambaFormer는 빛을 발했다.
- MQAR (Multi-Query Associative Recall): 긴 시퀀스 내에서 여러 개의 키-값 쌍을 기억하고, 쿼리에 맞는 값을 찾아내는 태스크.
- 결과: 순수 맘바 모델은 시퀀스 길이가 길어질수록 성능이 급격히 하락했다. 반면, MambaFormer는 트랜스포머와 대등한 수준의 높은 정확도를 유지했다.3 이는 어텐션 레이어가 맘바의 기억력 한계를 효과적으로 보완하고 있음을 정량적으로 보여준다.
5.3 인컨텍스트 학습(ICL)의 일반화
MambaFormer는 단순히 특정 태스크에 특화된 것이 아니라, 일반적인 ICL 능력에서도 우수성을 입증했다. 선형 회귀(Linear Regression), 의사결정 나무(Decision Tree) 학습 등 다양한 벤치마크에서 MambaFormer는 항상 상위권의 성능을 기록했다.
| 태스크 (Task) | Transformer | Mamba | MambaFormer | 설명 |
|---|---|---|---|---|
| Sparse Parity | ✗ (Fail) | ✓ (Best) | ✓ (Best) | 순차적 논리 연산 능력 |
| MQAR (Retrieval) | ✓ (Best) | ✗ (Fail) | ✓ (Best) | 장기 기억 및 정밀 검색 능력 |
| Linear Regression | ✓ (Good) | ✓ (Good) | ✓ (Good) | 함수 근사 능력 |
| Decision Tree | ✓ (Good) | ✗ (Weak) | ✓ (Good) | 복합적 추론 능력 |
이 결과는 MambaFormer가 **“Best-of-Both-Worlds”**를 달성했음을 의미한다. 트랜스포머가 잘하는 것은 트랜스포머만큼 잘하고, 맘바가 잘하는 것은 맘바만큼 잘하는 이상적인 하이브리드 모델인 것이다.7
6. 결론 및 향후 전망: 하이브리드 아키텍처의 미래
MambaFormer는 트랜스포머의 독주 체제에 제동을 걸고, 효율성과 표현력을 동시에 잡기 위한 하이브리드 아키텍처의 새로운 표준을 제시했다. 특히 희소 패리티와 같은 고난도 논리 태스크를 해결하기 위해 **“초기 레이어 맘바(Initial Mamba)”**와 **“위치 인코딩 제거(No Positional Encoding)”**라는 독창적인 설계를 도입한 것은 아키텍처 엔지니어링의 승리라 할 수 있다.
MambaFormer의 성공은 향후 대규모 언어 모델(LLM)의 발전 방향에 중요한 시사점을 던진다.
- 효율적인 롱 컨텍스트 처리: 수백만 토큰을 처리해야 하는 미래의 LLM은 모든 정보를 어텐션으로 처리할 수 없다. MambaFormer와 같은 하이브리드 구조는 맘바를 통해 정보를 효율적으로 압축하고, 필요한 순간에만 어텐션을 사용하는 방식으로 무한에 가까운 컨텍스트 윈도우를 실현할 가능성을 보여준다.19
- 추론 능력의 강화: 단순한 패턴 매칭을 넘어, 패리티와 같은 엄밀한 논리 연산이나 복잡한 알고리즘적 추론(Chain-of-Thought)을 수행하기 위해서는 상태(State) 기반의 모델링이 필수적이다. MambaFormer는 이러한 추론 능력을 모델의 뼈대(Backbone)에 내재화할 수 있음을 증명했다.25
- 하이브리드 디자인의 다양화: MambaFormer의 성공에 힘입어, Jamba, Zamba, Samba 등 다양한 변형 하이브리드 모델들이 등장하고 있다. 이들은 각기 다른 비율과 방식으로 맘바와 어텐션을 결합하며 최적의 효율점을 찾고 있다.1
결론적으로, MambaFormer는 맘바와 트랜스포머가 경쟁 관계가 아닌 상호 보완적 동반자임을 증명했다. 희소 패리티 학습을 위한 이 결합 구조는 인공지능이 더 길고, 더 복잡하며, 더 논리적인 데이터를 이해하는 데 있어 필수적인 디딤돌이 될 것이다.
7. 참고 자료
- Meet Bamba, IBM’s new attention-state space model - IBM Research, https://research.ibm.com/blog/bamba-ssm-transformer-model
- SST: Multi-Scale Hybrid Mamba-Transformer Experts for Time Series Forecasting - arXiv, https://arxiv.org/pdf/2404.14757
- Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks - arXiv, https://arxiv.org/pdf/2402.04248
- Can Mamba Always Enjoy the “Free Lunch”? - arXiv, https://arxiv.org/html/2410.03810v1
- Repeat After Me: Transformers are Better than State Space Models at Copying, https://kempnerinstitute.harvard.edu/research/deeper-learning/repeat-after-me-transformers-are-better-than-state-space-models-at-copying/
- [2402.04248] Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks - arXiv, https://arxiv.org/abs/2402.04248
- [Quick Review] Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks - Liner, https://liner.com/review/can-mamba-learn-how-to-learn-comparative-study-on-incontext
- Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks - GitHub, https://raw.githubusercontent.com/mlresearch/v235/main/assets/park24j/park24j.pdf
- CAN MAMBA LEARN HOW TO LEARN?ACOMPARA- TIVE STUDY ON IN-CONTEXT LEARNING TASKS - OpenReview, https://openreview.net/pdf?id=xvr0Hctddy
- Can Custom Models Learn In-Context? An Exploration of Hybrid Architecture Performance on In-Context Learning Tasks - ResearchGate, https://www.researchgate.net/publication/385595507_Can_Custom_Models_Learn_In-Context_An_Exploration_of_Hybrid_Architecture_Performance_on_In-Context_Learning_Tasks
- Why are Sensitive Functions Hard for Transformers? - arXiv, https://arxiv.org/html/2402.09963v2
- The Role of Sparsity for Length Generalization in Transformers - arXiv, https://arxiv.org/html/2502.16792v1
- Trapped by simplicity: When Transformers fail to learn from noisy features - OpenReview, https://openreview.net/forum?id=n5bPL58uMC
- Hidden Progress in Deep Learning: SGD Learns Parities Near the Computational Limit, https://proceedings.neurips.cc/paper_files/paper/2022/file/884baf65392170763b27c914087bde01-Paper-Conference.pdf
- Simplicity Bias in Transformers and their Ability to Learn Sparse Boolean Functions - ACL Anthology, https://aclanthology.org/2023.acl-long.317.pdf
- Hybrid Mamba-Attention Architectures - Emergent Mind, https://www.emergentmind.com/topics/hybrid-mamba-attention-architectures
- How Mamba Beats Transformers at Long Sequences - Galileo AI, https://galileo.ai/blog/mamba-linear-scaling-transformers
- MambaByte: Token-free Selective State Space Model | NSF Public, https://par.nsf.gov/biblio/10568125-mambabyte-token-free-selective-state-space-model
- HYBRID ARCHITECTURES FOR LANGUAGE MODELS: SYSTEMATIC ANALYSIS AND DESIGN INSIGHTS - OpenReview, https://openreview.net/pdf/0e89b5aa27c2bea5f31c5069d50f1ff9ac97c543.pdf
- Fourteen papers by ECE researchers to be presented at the International Conference on Machine Learning - Electrical and Computer Engineering, https://ece.engin.umich.edu/stories/fourteen-papers-by-ece-researchers-to-be-presented-at-the-international-conference-on-machine-learning
- Integrating Mamba and Transformer for Long-Short Range Time Series Forecasting - arXiv, https://arxiv.org/html/2404.14757v1
- SST: Multi-Scale Hybrid Mamba-Transformer Experts for Time Series Forecasting - arXiv, https://arxiv.org/html/2404.14757v3
- Mamba vs Transformers: Efficiency, Scale, and the Future of AI - Michiel Horstman - Medium, https://michielh.medium.com/mamba-vs-transformers-efficiency-scale-and-the-future-of-ai-d7a8dedb4018
- The End of Transformers? On Challenging Attention and the Rise of Sub-Quadratic Architectures - OpenReview, https://openreview.net/pdf?id=N7ouWikDzw
- Exploring the Limitations of Mamba in COPY and CoT Reasoning - ACL Anthology, https://aclanthology.org/2025.emnlp-main.634.pdf
- samba: simple hybrid state space models - for efficient unlimited context - ICLR Proceedings, https://proceedings.iclr.cc/paper_files/paper/2025/file/84a7fc24ed52e8eff514c33e8ac76ea3-Paper-Conference.pdf
- HYMBA: A HYBRID-HEAD ARCHITECTURE FOR SMALL LANGUAGE MODELS - OpenReview, https://openreview.net/notes/edits/attachment?id=pAPK2CGTZE&name=pdf